14 research outputs found

    Configurable EBEN: Extreme Bandwidth Extension Network to enhance body-conducted speech capture

    Full text link
    This paper presents a configurable version of Extreme Bandwidth Extension Network (EBEN), a Generative Adversarial Network (GAN) designed to improve audio captured with body-conduction microphones. We show that although these microphones significantly reduce environmental noise, this insensitivity to ambient noise happens at the expense of the bandwidth of the speech signal acquired by the wearer of the devices. The obtained captured signals therefore require the use of signal enhancement techniques to recover the full-bandwidth speech. EBEN leverages a configurable multiband decomposition of the raw captured signal. This decomposition allows the data time domain dimensions to be reduced and the full band signal to be better controlled. The multiband representation of the captured signal is processed through a U-Net-like model, which combines feature and adversarial losses to generate an enhanced speech signal. We also benefit from this original representation in the proposed configurable discriminators architecture. The configurable EBEN approach can achieve state-of-the-art enhancement results on synthetic data with a lightweight generator that allows real-time processing.Comment: Accepted in IEEE/ACM Transactions on Audio, Speech and Language Processing on 14/08/202

    Nonlinear internal wave penetration via parametric subharmonic instability

    Get PDF
    We present the results of a laboratory experimental study of an internal wave field generated by harmonic, spatially periodic boundary forcing from above of a density stratification comprising a strongly stratified, thin upper layer sitting atop a weakly stratified, deep lower layer. In linear regimes, the energy flux associated with relatively high frequency internal waves excited in the upper layer is prevented from entering the lower layer by virtue of evanescent decay of the wave field. In the experiments, however, we find that the development of parametric subharmonic instability in the upper layer transfers energy from the forced primary wave into a pair of subharmonic daughter waves, each capable of penetrating the weakly stratified lower layer. We find that around 10% of the primary wave energy flux penetrates into the lower layer via this nonlinear wave-wave interaction for the regime we study.ONLITUR ((No. ANR-2011-BS04-006-01)National Science Foundation (U.S.) (No. OCE-1357434

    Prédiction objective de l'effet des systÚmes tactiques de communication et protection sur les performances de localisation sonore

    No full text
    In many civilian or military situations, hearing protection is of major importance. The listener's acoustical situational awareness must however also be preserved. Tactical Communication and Protective Systems (TCAPS) are hearing protection devices that sufficiently protect the listener's ears from hazardous sounds and preserve speech intelligibility, thus allowing low-level speech communication. However, previous studies demonstrated that TCAPS still deteriorate the listener's situational awareness, in particular the ability to locate sound sources. On the horizontal plane, this is mainly explained by the degradation of the acoustical cues normally preventing the listener from making front-back confusions. In the present PhD work, a behavioral sound localization experiment is conducted with six TCAPS: two passive and two active earplugs, and two active earmuffs. The performance in open ear condition is not retrieved with any protector, but the experiment ranks the TCAPS by type: passive earplugs lead to better performance than active earplugs, and active earmuffs induce the worst performance. As part of TCAPS development and assessment, a method predicting the protector-induced degradation of the sound localization capability, and based on electroacoustic measurements, would be more suitable than time-consuming behavioral experiments. In this context, two methods based on Head-Related Transfer Functions (HRTFs) measured on an artificial head are investigated: a template-matching model and a three-layer neural network. They are optimized to fit human sound localization performance in open ear condition. The methods are applied to the HRTFs measured with the six TCAPS, providing position-dependent localization probabilities. Compared with the behavioral results, the neural network predicts realistic performances with earplugs, but overestimates errors with earmuffs. The template-matching model predicts human performance well. However, the likelihood of the resulting probability distributions with the behavioral observations is lower than that of the neural network. Finally, both methods developed in this study are independent of the artificial head used, and can be applied to assess not only TCAPS prototypes, but also hearing aids.Dans de nombreuses situations civiles ou militaires, la protection de l'audition du personnel est cruciale. La perception et l'interprĂ©tation de l'environnement sonore par l'auditeur doivent cependant ĂȘtre prĂ©servĂ©es. Les SystĂšmes Tactiques de Communication et Protection (TCAPS) sont des protections auditives qui, Ă  la fois, protĂšgent suffisamment les oreilles de l'auditeur contre les bruits dangereux, et prĂ©servent l'intelligibilitĂ©, permettant ainsi la communication vocale Ă  bas niveau. Des Ă©tudes prĂ©cĂ©dentes ont cependant dĂ©montrĂ© que les TCAPS continuent de dĂ©tĂ©riorer la perception de l'environnement sonore de l'auditeur, en particulier sa capacitĂ© Ă  localiser les sources sonores. Sur le plan horizontal, la dĂ©gradation des indices acoustiques empĂȘchant, en temps normal, l'auditeur de confondre les sources avant et arriĂšre, en est la principale explication. Dans ce travail de thĂšse, une expĂ©rience subjective de localisation sonore est conduite avec six TCAPS: deux bouchons d'oreille passifs, deux bouchons d'oreilles actifs et deux casques actifs. Si aucun protecteur ne permet de retrouver les performances de la condition d'Ă©coute normale, l'expĂ©rience permet de classifier les TCAPS du point de vue de la localisation sonore: les performances des bouchons passifs sont meilleures que celles des bouchons actifs, et les casques actifs engendrent les plus mauvaises performances. Dans le cadre de la conception et de l'Ă©valuation des TCAPS, une mĂ©thode prĂ©disant leur dĂ©gradation des performances de localisation sonore, basĂ©e sur des mesures Ă©lectroacoustiques, serait plus adaptĂ©e que des expĂ©riences comportementales trĂšs chronophages. Dans ce contexte, deux mĂ©thodes basĂ©es sur les Fonctions de Transfert Relatives Ă  la TĂȘte (HRTF) mesurĂ©es sur tĂȘte artificielle sont Ă©tudiĂ©es: un processus d'appariement et un rĂ©seau de neurones Ă  trois couches. Ils sont optimisĂ©s pour reproduire les performances de localisation humaine en condition d'Ă©coute normale. Les mĂ©thodes sont ensuite appliquĂ©es aux HRTF mesurĂ©es avec les six TCAPS, et prĂ©disent des probabilitĂ©s de localisation en fonction de la position. ComparĂ© aux rĂ©sultats de l'expĂ©rience subjective, le rĂ©seau de neurones prĂ©dit des performances rĂ©alistes avec les bouchons d'oreille, mais surestime les erreurs avec les casques. Le modĂšle d'appariement prĂ©dit correctement les performances de localisation. Toutefois, la vraisemblance de ses distributions de probabilitĂ© avec les observations subjectives demeure plus faible que celle du rĂ©seau de neurones. Pour finir, les deux mĂ©thodes dĂ©veloppĂ©es dans cette Ă©tude sont indĂ©pendantes de la tĂȘte artificielle utilisĂ©e, et peuvent ĂȘtre utilisĂ©es pour Ă©valuer non seulement des prototypes de TCAPS, mais aussi des prothĂšses auditives

    Objective prediction of the effect of tactical communication and protective systems on sound localization performance

    No full text
    Dans de nombreuses situations civiles ou militaires, la protection de l'audition du personnel est cruciale. La perception et l'interprĂ©tation de l'environnement sonore par l'auditeur doivent cependant ĂȘtre prĂ©servĂ©es. Les SystĂšmes Tactiques de Communication et Protection (TCAPS) sont des protections auditives qui, Ă  la fois, protĂšgent suffisamment les oreilles de l'auditeur contre les bruits dangereux, et prĂ©servent l'intelligibilitĂ©, permettant ainsi la communication vocale Ă  bas niveau. Des Ă©tudes prĂ©cĂ©dentes ont cependant dĂ©montrĂ© que les TCAPS continuent de dĂ©tĂ©riorer la perception de l'environnement sonore de l'auditeur, en particulier sa capacitĂ© Ă  localiser les sources sonores. Sur le plan horizontal, la dĂ©gradation des indices acoustiques empĂȘchant, en temps normal, l'auditeur de confondre les sources avant et arriĂšre, en est la principale explication. Dans ce travail de thĂšse, une expĂ©rience subjective de localisation sonore est conduite avec six TCAPS: deux bouchons d'oreille passifs, deux bouchons d'oreilles actifs et deux casques actifs. Si aucun protecteur ne permet de retrouver les performances de la condition d'Ă©coute normale, l'expĂ©rience permet de classifier les TCAPS du point de vue de la localisation sonore: les performances des bouchons passifs sont meilleures que celles des bouchons actifs, et les casques actifs engendrent les plus mauvaises performances. Dans le cadre de la conception et de l'Ă©valuation des TCAPS, une mĂ©thode prĂ©disant leur dĂ©gradation des performances de localisation sonore, basĂ©e sur des mesures Ă©lectroacoustiques, serait plus adaptĂ©e que des expĂ©riences comportementales trĂšs chronophages. Dans ce contexte, deux mĂ©thodes basĂ©es sur les Fonctions de Transfert Relatives Ă  la TĂȘte (HRTF) mesurĂ©es sur tĂȘte artificielle sont Ă©tudiĂ©es: un processus d'appariement et un rĂ©seau de neurones Ă  trois couches. Ils sont optimisĂ©s pour reproduire les performances de localisation humaine en condition d'Ă©coute normale. Les mĂ©thodes sont ensuite appliquĂ©es aux HRTF mesurĂ©es avec les six TCAPS, et prĂ©disent des probabilitĂ©s de localisation en fonction de la position. ComparĂ© aux rĂ©sultats de l'expĂ©rience subjective, le rĂ©seau de neurones prĂ©dit des performances rĂ©alistes avec les bouchons d'oreille, mais surestime les erreurs avec les casques. Le modĂšle d'appariement prĂ©dit correctement les performances de localisation. Toutefois, la vraisemblance de ses distributions de probabilitĂ© avec les observations subjectives demeure plus faible que celle du rĂ©seau de neurones. Pour finir, les deux mĂ©thodes dĂ©veloppĂ©es dans cette Ă©tude sont indĂ©pendantes de la tĂȘte artificielle utilisĂ©e, et peuvent ĂȘtre utilisĂ©es pour Ă©valuer non seulement des prototypes de TCAPS, mais aussi des prothĂšses auditives.In many civilian or military situations, hearing protection is of major importance. The listener's acoustical situational awareness must however also be preserved. Tactical Communication and Protective Systems (TCAPS) are hearing protection devices that sufficiently protect the listener's ears from hazardous sounds and preserve speech intelligibility, thus allowing low-level speech communication. However, previous studies demonstrated that TCAPS still deteriorate the listener's situational awareness, in particular the ability to locate sound sources. On the horizontal plane, this is mainly explained by the degradation of the acoustical cues normally preventing the listener from making front-back confusions. In the present PhD work, a behavioral sound localization experiment is conducted with six TCAPS: two passive and two active earplugs, and two active earmuffs. The performance in open ear condition is not retrieved with any protector, but the experiment ranks the TCAPS by type: passive earplugs lead to better performance than active earplugs, and active earmuffs induce the worst performance. As part of TCAPS development and assessment, a method predicting the protector-induced degradation of the sound localization capability, and based on electroacoustic measurements, would be more suitable than time-consuming behavioral experiments. In this context, two methods based on Head-Related Transfer Functions (HRTFs) measured on an artificial head are investigated: a template-matching model and a three-layer neural network. They are optimized to fit human sound localization performance in open ear condition. The methods are applied to the HRTFs measured with the six TCAPS, providing position-dependent localization probabilities. Compared with the behavioral results, the neural network predicts realistic performances with earplugs, but overestimates errors with earmuffs. The template-matching model predicts human performance well. However, the likelihood of the resulting probability distributions with the behavioral observations is lower than that of the neural network. Finally, both methods developed in this study are independent of the artificial head used, and can be applied to assess not only TCAPS prototypes, but also hearing aids

    Comparaison entre PESQ et MUSHRA pour l’estimation de la qualitĂ© audio d’un signal de parole enregistrĂ© par des microphones « non-conventionnels »

    No full text
    Lorsque l'on parle, on gĂ©nĂšre non seulement du signal aĂ©rien, mais aussi des vibrations qui se propagent dans les diffĂ©rents Ă©lĂ©ments constituant notre tĂȘte. Ces vibrations contiennent l’information du signal de parole et peuvent ĂȘtre enregistrĂ©es. On appelle microphones « non conventionnels » tous les capteurs permettant d’enregistrer ces signaux se propageant dans notre corps. Les microphones non conventionnels sont souvent moins sensibles au bruit ambiant que les microphones acoustiques classiques, ils peuvent ĂȘtre utilisĂ©s dans des environnements difficiles et ils sont compatibles avec les Ă©quipements de tĂȘte tels que les masques de protection NRBC. Le plus ancien microphone « non conventionnel » est le laryngophone mais il en existe d’autres comme la prise de son aĂ©rienne dans le conduit auditif ou les microphones Ă  conduction osseuse. Des Ă©tudes antĂ©rieures ont pu montrer que l’intelligibilitĂ© de ces types de prise de son Ă©tait dĂ©gradĂ©e. Le but de cette Ă©tude est de vĂ©rifier si une mĂ©thode objective telle que PESQ peut ĂȘtre utilisĂ©e pour estimer la qualitĂ© audio de ces microphones. Une comparaison entre les rĂ©sultats obtenus par la mĂ©thode objective PESQ et celle subjective MUSHRA a Ă©tĂ© rĂ©alisĂ©e sur l'estimation de la qualitĂ© audio des signaux de parole provenant de quatre types diffĂ©rents de microphone « non conventionnel »

    Deep Learning pour l’amĂ©lioration de signaux vocaux captĂ©s avec des transducteurs intra-auriculaires

    No full text
    National audienceCe projet de recherche est nĂ© d’une collaboration entre l’équipe LMSSC (Laboratoire de MĂ©canique des Structures et des SystĂšmes CouplĂ©s) du CNAM et l’équipe APC (Acoustique et Protection du Combattant) de l’ISL. Il a pour objectif d’amĂ©liorer l’intelligibilitĂ© de la parole captĂ©e par un microphone intra-auriculaire dĂ©veloppĂ© par l’ISL. Ce dispositif de captation non- conventionnel, adossĂ© Ă  une protection auditive active, permet de capter les signaux vocaux Ă©mis par un locuteur en Ă©liminant toutes nuisances sonores extĂ©rieures. Cependant, le trajet acoustique entre la bouche et les transducteurs est responsable d’une perte totale d’information au-delĂ  de 2 kHz. En basses frĂ©quences, une lĂ©gĂšre amplification ainsi que des bruits physiologiques sont observĂ©s. Nous avons donc Ă  faire Ă  un problĂšme de reconstruction de signal absent en hautes frĂ©quences et de dĂ©bruitage.Les mĂ©thodes par apprentissage profond seront privilĂ©giĂ©es pour la reconstruction des hautes frĂ©quences au dĂ©triment du modĂšle source-filtre qui n’est pas capable de rĂ©tablir d’information manquante.Une premiĂšre phase d’analyse des signaux captĂ©s est nĂ©cessaire pour modĂ©liser la dĂ©gradation et observer sa variabilitĂ©. La conception d’une base de donnĂ©es consĂ©quente est alors rendue possible avec un filtrage numĂ©rique simulant les dĂ©tĂ©riorations observĂ©es. Afin d’augmenter la richesse de cette base de donnĂ©es et d’éviter tout phĂ©nomĂšne de sur- apprentissage, une composante alĂ©atoire sera introduite dans le filtrage.La conception de rĂ©seaux de neurones profonds est maintenant rendue possible pour la rĂ©gĂ©nĂ©ration du signal Ă©mis Ă  partir du signal dĂ©gradĂ©. Une vaste exploration sur l’architecture des rĂ©seaux, les fonctions de coĂ»t utilisĂ©es et les stratĂ©gies d’apprentissage sera entreprise. L’objectif final est d’intĂ©grer un rĂ©seau d’infĂ©rence sur une carte de programmation pour un traitement en temps rĂ©el. Une attention particuliĂšre sera attachĂ©e Ă  la taille du rĂ©seau et au dĂ©lai de traitement sur ce type d’architecture lĂ©gĂšre et peu consommatrice d’énergie

    Sound localization models as evaluation tools for tactical communication and protective systems

    No full text
    International audienceTactical Communication and Protective Systems (TCAPS) are hearing protection devices that sufficiently protect the listener' s ears from hazardous sounds and preserve speech intelligibility. However, previous studies demonstrated that TCAPS still deteriorate the listener' s situational awareness, in particular, the ability to locate sound sources. On the horizontal plane, this is mainly explained by the degradation of the acoustical cues normally preventing the listener from making front-back confusions. As part of TCAPS development and assessment, a method predicting the TCAPS-induced degradation of the sound localization capability based on electroacoustic measurements would be more suitable than time-consuming behavioral experiments. In this context, the present paper investigates two methods based on Head-Related Transfer Functions (HRTFs): a template-matching model and a three-layer neural network. They are optimized to fit human sound source identification performance in open ear condition. The methods are applied to HRTFs measured with six TCAPS, providing identification probabilities. They are compared with the results of a behavioral experiment, conducted with the same protectors, and which ranks the TCAPS by type. The neural network predicts realistic performances with earplugs, but overestimates errors with earmuffs. The template-matching model predicts human performance well, except for two particular TCAPS

    Deep Learning pour l’amĂ©lioration de signaux vocaux captĂ©s avec des transducteurs intra-auriculaires

    No full text
    National audienceCe projet de recherche est nĂ© d’une collaboration entre l’équipe LMSSC (Laboratoire de MĂ©canique des Structures et des SystĂšmes CouplĂ©s) du CNAM et l’équipe APC (Acoustique et Protection du Combattant) de l’ISL. Il a pour objectif d’amĂ©liorer l’intelligibilitĂ© de la parole captĂ©e par un microphone intra-auriculaire dĂ©veloppĂ© par l’ISL. Ce dispositif de captation non- conventionnel, adossĂ© Ă  une protection auditive active, permet de capter les signaux vocaux Ă©mis par un locuteur en Ă©liminant toutes nuisances sonores extĂ©rieures. Cependant, le trajet acoustique entre la bouche et les transducteurs est responsable d’une perte totale d’information au-delĂ  de 2 kHz. En basses frĂ©quences, une lĂ©gĂšre amplification ainsi que des bruits physiologiques sont observĂ©s. Nous avons donc Ă  faire Ă  un problĂšme de reconstruction de signal absent en hautes frĂ©quences et de dĂ©bruitage.Les mĂ©thodes par apprentissage profond seront privilĂ©giĂ©es pour la reconstruction des hautes frĂ©quences au dĂ©triment du modĂšle source-filtre qui n’est pas capable de rĂ©tablir d’information manquante.Une premiĂšre phase d’analyse des signaux captĂ©s est nĂ©cessaire pour modĂ©liser la dĂ©gradation et observer sa variabilitĂ©. La conception d’une base de donnĂ©es consĂ©quente est alors rendue possible avec un filtrage numĂ©rique simulant les dĂ©tĂ©riorations observĂ©es. Afin d’augmenter la richesse de cette base de donnĂ©es et d’éviter tout phĂ©nomĂšne de sur- apprentissage, une composante alĂ©atoire sera introduite dans le filtrage.La conception de rĂ©seaux de neurones profonds est maintenant rendue possible pour la rĂ©gĂ©nĂ©ration du signal Ă©mis Ă  partir du signal dĂ©gradĂ©. Une vaste exploration sur l’architecture des rĂ©seaux, les fonctions de coĂ»t utilisĂ©es et les stratĂ©gies d’apprentissage sera entreprise. L’objectif final est d’intĂ©grer un rĂ©seau d’infĂ©rence sur une carte de programmation pour un traitement en temps rĂ©el. Une attention particuliĂšre sera attachĂ©e Ă  la taille du rĂ©seau et au dĂ©lai de traitement sur ce type d’architecture lĂ©gĂšre et peu consommatrice d’énergie

    AltĂ©rations des formants par l’utilisation de microphones « non conventionnels »

    No full text
    Dans les environnements bruyants la communication Ă  distance est un vĂ©ritable dĂ©fi. L’utilisation de microphones classiques enregistrant l’onde aĂ©rienne Ă©mise par la bouche et les narines peut poser problĂšme tant sur le plan de l’ergonomie que sur celui de la robustesse dans l’acquisition du signal de parole. Les microphones non conventionnels (laryngophones, microphones Ă  conduction osseuse, microphones intra-auriculaires 
) qui mesurent le signal de parole se propageant au travers du corps, apportent une nouvelle solution. En effet, ils sont moins sensibles aux bruits environnants et sont compatibles avec des Ă©quipements de tĂȘte comme les masques Ă  gaz. Cependant l’intelligibilitĂ© et la qualitĂ© du signal enregistrĂ© avec ce type de microphones est un frein Ă  leur utilisation. Ainsi l’étude de ces derniers reprĂ©sente un grand intĂ©rĂȘt. Pour comprendre leurs effets sur le signal de parole, des volontaires Ă©quipĂ©s de diffĂ©rents types de microphones ont prononcĂ© une sĂ©rie de voyelles phonĂ©tiques. A l’aide des suivis des formants, une comparaison des microphones « non conventionnels » avec un microphone aĂ©rien de rĂ©fĂ©rence, a Ă©tĂ© rĂ©alisĂ©e. La prĂ©sente Ă©tude donne des premiers rĂ©sultats, premiers pas vers la comprĂ©hension de la perte d’intelligibilitĂ© engendrĂ© par ces microphones

    Influence of bone conduction transducers position and constraint on propagation to the ear

    No full text
    International audienceSolid-state transducers are nowadays integrated in communication headsets that open the way to a new category of headsets that are of interest in both military and civil applications. Sounds are stimulated to the inner ear directly through the bones and cartilage of the skull. The main advantage of this technology is to offer the user the possibility to have the ear clear to remain alert to his environment or to use earplugs with a high level of protection while continuing to communicate via a radio system. Different types of transducers are used in a measurement protocol to determine the influence of the bearing force and position of the transducer on the propagation from the skin to the reception by a listener. The measurement setup includes laser vibrometry measurements on the skin and solid-state hearing threshold measurements
    corecore